3 research outputs found

    Metodolog铆a de clasificaci贸n de datos desbalanceados basado en m茅todos de submuestreo

    Get PDF
    En este trabajo se presenta la construcci贸n metodol贸gica para la clasificaci贸n de datos desbalanceados, a partir del an谩lisis comparativo entre t茅cnicas de submuestreo, y tiene como aporte fundamental el desarrollo de una nueva estrategia de submuestreo y la clara identificaci贸n de las condiciones de aplicaci贸n de cada una de las t茅cnicas. En particular, se consideran las t茅cnicas de submuestreo basado en agrupamiento, un nuevo m茅todo de submuestreo basado en teor铆a de la informaci贸n y una adaptaci贸n de los m茅todos propuesto para desarrollar un ensamble de clasificadores. Las pruebas de desempe帽o se orientan a la precisi贸n del sistema en la etapa de clasificaci贸n y a la capacidad de cada m茅todo para seleccionar las muestras m谩s representativas. Se realizan pruebas sobre 44 bases de datos desbalanceadas de peque帽a escala del repositorio de datos KEEL, y tres bases de datos de gran escala orientas a la predicci贸n de c谩ncer de mama y de homolog铆a de prote铆nas y la detecci贸n autom谩tica de displasias corticales. Los resultados obtenidos reflejan que el submuestreo basado en teor铆a de la informaci贸n es el m茅todo de submuestreo que mejor preserva la estructura de la clase mayoritaria, reduciendo la p茅rdida de informaci贸n en el proceso de eliminaci贸n de muestras. Adem谩s, este m茅todo presenta una mejora sustancial cuando es adaptado para generar la combinaci贸n de diferentes clasificadores aumentando notablemente la capacidad del sistema para generalizar el comportamiento de ambas clases lo cual se puede evidenciar en los resultados de clasificaci贸n

    DiME: Maximizing Mutual Information by a Difference of Matrix-Based Entropies

    Full text link
    We introduce an information-theoretic quantity with similar properties to mutual information that can be estimated from data without making explicit assumptions on the underlying distribution. This quantity is based on a recently proposed matrix-based entropy that uses the eigenvalues of a normalized Gram matrix to compute an estimate of the eigenvalues of an uncentered covariance operator in a reproducing kernel Hilbert space. We show that a difference of matrix-based entropies (DiME) is well suited for problems involving the maximization of mutual information between random variables. While many methods for such tasks can lead to trivial solutions, DiME naturally penalizes such outcomes. We compare DiME to several baseline estimators of mutual information on a toy Gaussian dataset. We provide examples of use cases for DiME, such as latent factor disentanglement and a multiview representation learning problem where DiME is used to learn a shared representation among views with high mutual information

    The Representation Jensen-R\'enyi Divergence

    Full text link
    We introduce a divergence measure between data distributions based on operators in reproducing kernel Hilbert spaces defined by kernels. The empirical estimator of the divergence is computed using the eigenvalues of positive definite Gram matrices that are obtained by evaluating the kernel over pairs of data points. The new measure shares similar properties to Jensen-Shannon divergence. Convergence of the proposed estimators follows from concentration results based on the difference between the ordered spectrum of the Gram matrices and the integral operators associated with the population quantities. The proposed measure of divergence avoids the estimation of the probability distribution underlying the data. Numerical experiments involving comparing distributions and applications to sampling unbalanced data for classification show that the proposed divergence can achieve state of the art results.Comment: We added acknowledgment
    corecore